AI+语音：AssemblyAI，企业音频市场拓荒者

Original 硅谷科技评论 SV Technology Review 2024-04-14

80-90% 的企业数据是非结构化数据，例如音频、语音和文本。音频代表着企业内尚未开发的巨大金矿。同时，廉价而准确的语音识别增加了对音频内容的需求。

2017 年，谷歌 AI 驱动的语音识别声称准确率达到 95%，这是匹配人类准确度的门槛。同年，谷歌和 AWS 推出了语音识别 API。开发和部署用于音频转录的 ML 模型需要时间和资源，这是很大科技大厂不愿意提供，而很多中小企业真实存在的需求。

AssemblyAI 提供 API 来转录和理解音频数据。它将音频文件和实时音频流转换为文本。它的目标是让用户能够利用音频智能做更多事情，例如摘要、内容审核、主题检测等。AssemblyAI 还打算以最新的人工智能研究为基础，通过 API 提供可扩展且安全的人工智能模型。文末有彩蛋。

一、创立故事

Dylan Fox（首席执行官）毕业于乔治华盛顿大学，在思科工作两年后，于 2017 年创立了 AssemblyAI。

在思科工作期间，Fox 一直在研究协作产品中机器学习原型，并开始研究自动语音识别 API。他发现现有的 API 要么不准确，要么无法访问；例如，当他试图访问 Nuance（语音识别领域的老牌企业）的 API 时，该公司向他发送了一张包含试用软件的 CD-ROM（他的笔记本当时甚至没有 CD-ROM）。当谷歌刚刚发布其语音 API 时，他还联系了谷歌，发现尽管他代表思科，但他无法获得支持、理解其路线图，也无法弄清楚该产品的哪些方面可能会在 6 个月内被弃用。这是他最初意识到市场存在的空白。

Fox 还深入研究了用于语音识别的机器学习，并发现新的机器学习方法已经实现了准确性突破。2015年，谷歌宣布采用新的深度神经网络进行语音搜索，取代了已有30年历史的行业标准高斯混合模型。这开启了该领域加速创新的时期。2017 年，谷歌和 AWS 推出了语音识别 API，微软宣布其在 Cortana、演示翻译器和微软认知服务中使用的语音识别系统，并将错误率降低到 5.1%。

与此同时，Twilio 和 Stripe 等开发者优先的公司也看到了关注开发者体验的吸引力。Fox 认识到机器学习的进步让新玩家能够推出更好的产品，而现有玩家提供的开发人员体验却较差，这一切催生了创立 AssemblyAI 的想法。他表示，

“大公司的目标是研究和部署用于 NLP 和语音识别的尖端人工智能模型，并通过非常简单的免费且易于集成的软件开发套件和 API 向开发人员展示这些模型。”

2017年，他离开思科开始创业。公司刚刚创立，要建立一个定制化的语音识别系统需要面对不少挑战。比如他们需要大量的GPU ，因为语音模型的训练是计算密集型任务。幸运的是，他们获得了知名孵化机构Y Combinator的支持，为他们搭建起了服务器。除了硬件方面需要支持，此外还需要大量用户数据进行训练。他们开发了一个Harvest爬虫软件，从网上收集音频数据。经过多年的发展，AssemblyAI已经可以为12多种语言提供基于 API 的人工智能服务。此外，还提供多种模型供企业使用，比如情感分析模型、实体检测模型、内容审核模型等。

二、公司产品

1、Core Transcription 核心转录

转录是 AssemblyAI 的基础产品。Conformer-1 是 AssemblyAI 的语音识别模型，经过 65 万小时的音频数据训练。它允许转录预先录制的音频和实时音频流。它支持自动检测和标记最多 10 说话的人。用户可以增强自定义术语以增加被转录的可能性。它还可以检测音频文件中说话者的数量。转录文本中的每个单词都会自动与其说话者相关联。

目前 AssemblyAI 支持 12 多种语言（包括带口音的英语）。其核心语音识别模型在噪音数据上的错误率平均降低了43％，具有行业领先的准确性和稳健性。

2、Audio Intelligence 音频智能

AssemblyAI 提供了总结言论、检测仇恨内容等的模型。它具有针对不同用例的自定义模型：信息式（ informative）、对话式（conversational）或吸引式（catchy）。

信息式最适合单个发言者，对话式最适合两人对话，吸引式的可以提供标题或要点，总结单个句子或几个单词。

AssemblyAI 可以识别音频中的逻辑“章节”，将其分段，并将它们总结为“章节”。该领域的演示应用程序包括将播客分解为小片段，使其更易于搜索且更易于采样。

PII 编辑可提高安全性并降低组织面临的风险。AssemblyAI 提供 15 种以上的编辑策略。例如，它可以自动编辑医疗状况、出生日期、信用卡、宗教信仰和政治立场等信息。AssemblyAI 提供了使用此功能自动编辑的音频剪辑示例。

用户还可以检测并查明何时可能讨论敏感问题，例如犯罪、毒品、健康问题等。AssemblyAI 可以检测音频文件中句子的情绪。用户可以识别音频文件中的实体，例如姓名、电子邮件地址、日期和位置。

三、市场格局

1、公司客户

AssemblyAI 的开发人员优先的方法意味着许多最初的客户是采用语音功能的初创公司和中小企业。目前公司已经获得不少知名企业客户，包括《华尔街日报》、NBC环球和 Spotify 等。此外，AssemblyAI 正在开发高端市场，2022 年 9 月宣布推出企业版产品。Veed 的自动字幕系统、Spotify 的广告平台和 CallRail 的呼叫跟踪平台都使用 AssemblyAI。AssemblyAI 具有医疗保健特定功能，使其能够识别医疗流程、状况、血型、药物和损伤，并可从记录中编辑。其先进的主题检测针对的是处理播客、视频和其他媒体的客户，了解主题有助于广告、推荐和搜索。

准确性是选择 ASR（自动语音识别）提供商时最重要的因素，但根据客户的使用案例，准确性可能会有很大差异。例如，TED 演讲相对容易，而多个发言者可能以不同的音频质量相互交谈的 Zoom 会议则更加困难。虽然现成的 ASR 模型在更简单的用例中达到了 90% 以上的准确率，但改进复杂用例的模型仍然是一个挑战，并提供了巨大的价值。AssemblyAI 的目标是在复杂的环境下，突显自己的优势，声称在噪声数据上的错误减少了 43%。

ASR 的客户还希望超越转录并通过 NLP 理解转录的音频。与其他提供商相比，客户可能需要将音频到文本拼接到 NLP 工作流程中，而 AssemblyAI 拥有紧密集成的音频智能产品。例如，AssemblyAI 宣布了医疗保健特定功能，使其能够识别医疗流程、医疗状况、血型、药物和伤害，并从记录中编辑它们。

然而，跨行业推广 NLP 并不容易，而且专业垂直领域通常需要定制解决方案。2021 年的一项调查发现，NLP 的最大用户是医疗保健、技术、教育和金融服务。对于这些用户来说，最重要的 NLP 功能包括命名实体识别和文档分类，这些功能在不同垂直领域之间差异巨大。

2、市场规模

文本转语音市场在 2021 年估值为 28 亿美元，预计到 2031 年将达到 125 亿美元。然而，AssemblyAI 的音频智能更广泛地瞄准了 NLP 市场， 2022 年市场规模为 264 亿美元，预计到 2029 年将增长到 1618 亿美元，复合年增长率为 18.1%。

廉价、准确的语音识别也释放了对现有语音音频的需求。许多行业正在转向人工智能驱动的解决方案，使音频对机器来说清晰可见，涵盖呼叫中心、金融服务、法律、电信、教育、医疗保健等。在企业内部，音频代表着大量未开发的价值——大约 80-90% 的企业数据是非结构化数据，例如音频、语音和文本。

3、行业竞品

新兴玩家

Deepgram

2015年成立于旧金山，为开发人员提供语音转文本 API。已筹集了 8600 万美元的资金，主要投资人为英伟达和YC（YC同样也支持了AssemblyAI）。截至 2022 年 11 月，Deepgram 拥有超过 300 家企业客户和超过 1.5 万用户。与 AssemblyAI 的开发人员优先、仅限 API 的方法相反，Deepgram 开始专注于企业，构建客户可以在本地部署的解决方案。其重要客户有NASA ，Deepgram 在那里构建了空对地通信模型。Deepgram 正在进军初创企业和中小企业市场。Deepgram 声称比 AssemblyAI 更快的处理速度和更强的多通道支持。Deepgram 与 AssemblyAI 展开正面竞争，提供用于自动语音识别和对话智能的 API。

Speechmatics

成立于 2006 年，总部位于英国，是自动语音识别领域最早的初创公司之一。托尼·罗宾逊 (Tony Robinson) 博士在创立 Speechmatics 之前曾在剑桥进行人工智能研究。已筹集了 7200 万美元。截至2022年6月，它拥有170名客户。Speechmatics 旨在通过支持更广泛的语言和口音来脱颖而出。截至 2023 年 4 月，AssemblyAI 支持 12 种语言，而 Speechmatics 支持 34 种语言。首席执行官 Katy Wigdahl 表示：“我们所做的就是收集数百万小时的数据，努力解决人工智能偏见问题。我们的目标是理解多种语言的任何声音。”

行业巨头

Nuance 及其旗舰产品 Dragon 语音识别产品是该领域的主导供应商，其语音识别服务从 2013 年开始为苹果的 Siri 服务提供支持。Dragon 于 1997 年开发，后被 Nuance 收购，Nuance 扩展了 Dragon从桌面软件到有针对性的医疗和法律解决方案。微软于 2021 年以 160 亿美元收购了 Nuance，并继续投资 Nuance 的医疗保健产品。例如，2023 年 3 月 20 日，微软发布了 Dragon Ambient Experience Express，这是一款由 GPT-4 支持的临床记录应用程序。

大型云厂商也是这个行业主要玩家，如 IBM Watson Speech-to-Text、Google Speech-to-Text、AWS Transcribe 和 Azure Cognitive Services Speech-to-Text 。大型云提供商通常会提供更多语言 - 例如，Google 提供 125 种语言和特定于垂直行业的解决方案，例如 AWS Transcribe Medical。然而，大型提供商通常缺乏定制化，并且在解决模型中的偏差方面进展缓慢。正如微软数据、人工智能和物联网解决方案首席总监指出的那样，

“如果您不是每周支付数百万或数十万美元的财富 50 强企业，那么与微软或任何大型云提供商合作，你无法让工程团队来完成所有这一切。”

缺乏微调也可能导致偏差问题。例如，斯坦福大学 2019 年的一项研究测试了亚马逊、苹果、谷歌、IBM 和微软的语音转文本产品，发现不同种族之间的平均错误率存在差异。开发人员的体验也更差，通常需要用户将多个服务拼接在一起才能利用 NLP 支持的解决方案，例如说话人分类（分离单个说话人）和命名实体识别。相比之下，Deepgram 和 AssemblyAI 等初创公司在单一界面中统一了这些服务。

开源模型

开源模型在准确性上与现有的商业解决方案更具竞争优势。例如，一家名为Captions的创意媒体初创公司选择了OpenAI的Whisper而不是Google的语音转文字解决方案。然而，使用开源模型进行托管仍然存在延迟和扩展方面的挑战。培训和部署机器学习模型需要专业的基础设施和专业知识。对于拥有工程资源的公司来说，开源模型可以快速启动专有模型的开发。机器学习研究的开放性质也意味着许多架构突破，如Google的Transformer和Facebook的Wave2Vec，都是公开发布的，可以指导内部研究工作。一名在Observe.ai使用Deepgram的机器学习工程师表示，在花费了超过100万美元后，正在考虑与7名工程师团队建立自己的语音识别模型。

四、商业模式

AssemblyAI 提供基于使用情况的定价模型，对核心转录和音频智能按每秒收费。截至 2023 年 4 月，AssemblyAI 对核心转录的收费为每秒 0.00025 美元，对音频智能的收费为每秒 0.000583 美元。AssemblyAI 对企业功能根据定制定价。

五、重大进展

2023年12月，公司付费客户群比去年增长了 200%，达到 4,000 个品牌，其 AI 平台目前每天处理约 2500 万次 API 调用。超过 200,000 名开发人员正在该平台上进行开发，每天使用该平台处理超过 10 TB 的数据。

AssemblyAI 还四次被评为 G2 语音识别软件类别中的高性能者和势头领导者（2022 年夏季、2022 年春季、2022 年冬季和 2021 年冬季）。AssemblyAI 的易用性评分为 9.9（行业平均分为 8.3））和支持质量 9.5（行业平均 8.3）。

六、公司融资

2023年12月，公司完成5000万美元融资，投资方为Accel、Insight Partners和Y Combinator，累计融资达1.15亿美元。

2022 年 7 月，AssemblyAI 筹集了 3000 万美元的 B 轮融资，估值未公开。此轮融资由 Insight Partners 领投，Accel 和 Y Combinator 参与。

2022 年 3 月，Accel 领投了 2800 万美元的 A 轮融资。其融资总额为 6310 万美元。

七、投资机会

1、AI驱动产品不断创新

LLM 军备竞赛和加速人工智能研究更广泛地推动了 AssemblyAI 的产品创新。像 AssemblyAI 这样的团队可以整合最新的研究成果并将其商业化。正如 AssemblyAI 首席执行官 Dylan Fox 所指出的：

“我们的许多客户选择与我们的 API 集成正是因为我们的速度和改进速度。我们团队每周推送模型更新已成为惯例。”

LLM 的改进解锁了 NLP 的新功能，这直接帮助 AssemblyAI 改进和扩展其增值音频智能产品。加速人工智能研究也可能有助于公司改进其核心转录服务。例如，AssemblyAI 最新的自动语音识别模型 Conformer-1 采用了一种新的神经网络架构 Conformers，该架构由 Google Brain 于 2020 年首次发布。Conformers 是从 Transformer 架构演变而来的，该架构于 2017 年首次发布，为 ChatGPT 提供支持。

2、产品驱动客户持续增长

创新语音产品正在推动更多客户使用和成长。以开发者为焦点并采用经典的产品驱动增长策略，AssemblyAI定位于捕获新的语音产品，并与现有客户一起增长。例如，CallRail是一家为中小型企业提供入站电话分析的初创公司，与AssemblyAI合作，将其通话转录准确度提高了23%，并使使用其“Conversation Intelligence”产品的客户数量翻了一番。AssemblyAI的关键买家是最终用户-开发者和产品团队。AssemblyAI大力投资于开发者关系，以增加最终用户的支持，并激发新的使用案例。AssemblyAI的研究团队运营一个YouTube AI方面频道，拥有22.8K的粉丝和120万次观看量，而在2022年，AssemblyAI在其博客上发布了超过110篇文章，包括教程、AI分析、公告等等。

八、主要风险

1、高强度研发投入风险

开发音频模型比文本更具挑战性，因为它具有较高的维度。AssemblyAI正在大力投资于人工智能研究和开发，首席执行官Dylan Fox在2022年7月表示，他计划在接下来的六个月内“将我们的人工智能研究团队扩大三倍，并投资数百万美元用于GPU硬件，以训练更大更复杂的人工智能模型，将突破现有技术界限。”随着模型变得越来越大并且数据需求增加，成本可能会继续上升。

2、高端市场扩张风险

AssemblyAI 正在朝高端市场拓展，并于 2022 年 9 月发布了企业公告，但能否成功执行还有待观察。截至 2023 年 4 月，AssemblyAI 不提供本地解决方案，而这是处理政府或医疗保健等敏感数据的买家的常见要求。

3、与巨头市场竞争风险

自动语音识别的企业客户有很高的定制化和准确性要求，同时特定于垂直行业的 ASR 解决方案竞争非常激烈，科技巨头通常将 ASR 与现有产品套件捆绑在一起销售。AssemblyAI 于 2021 年 5 月宣布了医疗特定功能。然而，由于其复杂的术语和敏感数据，医疗保健领域拥有 Microsoft 收购的 Nuance 和 Amazon Alexa 等参与者。作为其 283 亿美元收购 EHR 系统 Cerner 的一部分，Oracle 宣布计划添加“免提语音界面以保护云应用程序”。